欢迎大家扫描下方的二维码关注“凌波微课”,加入凌波微课交流群,参与我们的课程和课下交流。
这一期是本系列课程前半部分关于方法原理方面的最后一期了,在之前的几期中,我们从头了解了16S rRNA扩增子测序的一些基本概念以及上机测序的过程等等,在经过上一期的数据质控之后,我们拿到了可以用于后续分析的高质量序列,也就是clean data。在本期课程中我们将带大家了解微生物群落研究中最为重要的一环,就是物种分类学注释。
我们研究的就是微生物群落的细菌组成结构,那么肯定要先知道群落里面都有什么细菌,这些细菌在群落中是多是少。16S rRNA扩增子测序的物种分类学注释首先就无法绕开QIIME这个软件工具,QIIME是目前为止使用最多、也是认可度最高、可以说是几乎所有的微生物群落研究人员都使用的16S rRNA扩增子测序数据分析工具。这是一个综合分析的软件包,能够进行16S rRNA扩增子数据的质控、样品区分、OTU聚类、绘制物种进化树、分析alpha、beta多样性等等工作。
但是由于该工具的重点并不是后续的统计学分析,因此通常来说目前的研究项目只会使用该工具进行物种分类学注释和丰度统计的工作,后续的统计学分析和结果可视化一般会使用R语言来实现,因为R语言中能进行的分析更多,结果图也更好看。接着我们简要介绍一下QIIME所进行的核心工作以及这其中涉及到的一些概念。在建库测序流程课程中,我们曾经讲过在进行样品PCR的时候需要在引物的末端链接barcode序列,以便后续在下机数据中区分哪一条reads属于哪一个样本。这个工作就是由QIIME来完成,这也是物种分类学注释的第一步,QIIME会根据输入的样本特异性barcode对照表,从下机的原始数据中将每一条序列分配给其对应的样本。在序列分配完成之后QIIME会去除序列中的barcode和引物部分,只保留我们PCR扩增的目的片段序列,用于后续的物种比对注释。在此过程中QIIME会同时完成质量控制的过程,并给出每一个样品的测序数据量和质量控制结果的统计。序列的样品分配完成之后,QIIME会进行其最核心的工作,那就是OTU的聚类。OTU是人为规定的一个分类单元标识,通过序列间的相互比对,将相似度大于97%的序列归为一类,称之为一个OTU。物种的分类学是由“界-门-纲-目-科-属-种”构成的一个层级,研究人员通过大量的研究发现,16S rRNA序列之间相似性如果大于97%,那么这两个物种就属于相同的属,也就是说属水平的鉴定阈值是16S rRNA的相似性为97%。这一过程应用UPARSE软件。Singleton是指在样本中含量非常少的一部分OTU,有的标准是匹配数目只有1条序列的OTU,有的标准是丰度低于0.001%的OTU,总之是含量非常少。这部分OTU可能是由于测序错误产生的,并且由于其丰度非常低,就算包含在数据里进行分析也不会有什么用,而且还有可能影响分析的准确性,因而一般情况下在数据分析之前会删除这部分OTU。关于数据标准化,由于不同样本测序的深度可能存在差异,也就是最后得到的序列数目并不相同,为了消除这种差异,会对测序数据进行标准化。具体的做法是对测序数据进行随机抽取,抽取的序列数目与所有样本中测序量最小的样本序列数目一致,保证最小数据量为3万条tags,之后再重新计算各样品的OTU相对丰度表格,用于后续分析。
了解了这些基本概念之后,我们来看一下OTU聚类及分类具体过程。首先是去单序列,Singleton。我们刚才讲到过,Singleton在所有reads中只出现一次的序列,一般认为这种序列是测序质量很差,没有生物学意义的序列,所以聚类的时候要去除这些序列,如右图size为1的序列。分析软件为Uparse。
经过去重复和去单序列处理后得到非冗余的序列进行Uparse聚类,聚类过程如下:
01
把size值最大的序列作为一个out的代表序列(rep1),用size值排第二的序列跟rep1全局比对,若相似性≥97%,则该序列归为这个OTU,若相似性<97%,则把该序列作为下个OTU的代表序列(rep2);
02
用size值排第三的序列分别与rep1和rep2比对,若该序列与rep1或rep2的相似性≥97%,则该序列归为对应OTU;若该序列与rep1和rep2的相似性都<97%,则把该序列归为其它OTU的代表序列(rep3);
03
以此类推,用其他序列依次与已生成的OTU代表序列比对,直到没有新的OTU代表序列出现。
我们通过OTU聚类得到的每一个不同的OTU可以看作是一个不同属的细菌。
我们可以看到属水平并不是物种分类的最低水平,那我们为什么只分析到属水平呢,这是由于使用二代测序技术最多能够得到16S rRNA序列的两个可变区,而不是其全长,种水平的区分要求16S rRNA序列的差异为99%。只有两个可变区的序列很可能没有覆盖到这1%的差异,因而如果使用二代测序技术的数据进行种水平的分类学注释大部分是不准确的。如果想要研究种水平的微生物组成,可以使用基于三代测序技术的16S rRNA全长扩增子测序技术,这个在之前测序技术简史一讲中也有介绍。
接下来我们来说说用于微生物多样性序列注释的参考数据库。
在OTU聚类完成之后,QIIME会挑选每一个OTU的代表序列,与这些参考数据库进行相似性比对,根据比对结果注释每一个OTU的物种分类学。细菌数据库包括RDP、SILVA、Greengenes;真菌数据库UNITE、FunGuild;专门针对真核微生物ITS2序列的ITS2数据库;功能基因数据库FunGene,是RDP延伸的一个针对微生物功能基因序列的数据库。其按照功能分为七大类,每类都包含几到上百种功能marker基因,可被用于功能marker基因高通量测序后的比对及功能基因引物设计等。
应用合适的参考基因数据库对聚类得到的OTU代表序列进行分类学注释是微生物群落研究中最重要的步骤。
16S rRNA常用的参考数据库主要有3个,分别为Greengenes、SILVA和RDP。Greengenes
是专门针对细菌和古菌的数据库,但是Greengenes数据库已经很久没更新了,最近为2013年,可能会有一些OTU无法注释到比较深的分类学水平,相对来说更适合注释人类和动物肠道菌群。Greengenes数据库支持PICRUSt分析,可以用于嵌合体的去除。SILVA
数据库一直在保持更新,用于比对细菌、古菌、真核生物小亚基(16S/18S, SSU) 和大亚基(23S/ 28S, LSU)rRNA的所有序列,SILVA数据库只包含高质量并且为全长的序列,是目前rRNA基因高通量测序后最常选用的参考数据库之一。如果是环境样品建议使用此数据库进行注释。RDP
包含细菌、古菌和真核生物,该数据库现在用的越来越少了,不过RDP数据库使用的是LCA注释方法,而不是基于相似性的BLAST方法,所以对于一些常规分析无法有效注释的OTU可能会有更好的效果。RDP数据库还可用于单菌株鉴定。下表列了微生物多样性常见的分析软件,目前QIIME2作为整合包使用最为方便,VSEARCH也作为UPARSE的开源版本使用也非常广泛。
QIIME的第一代版本发布已经有些年头了,而且当时只有命令行的版本,使得很多没有生信基础的研究人员很难有效的使用该工具。目前,QIIME公布的全新的QIIME2版本,依然是完全免费的开源工具,除了命令行版本,还提供的在线的网页分析工具和本地图形化界面的版本,使得更多没有生信基础的研究人员能够快速的掌握该工具的使用。初步支持宏基因组和宏代谢组数据的分析,计划支持宏转录组和宏蛋白质组数据的分析。
除此之外,QIIME2最重要的更新是提供了一种全新的物种聚类方法。高通量测序的结果可能会存在单核苷酸水平的测序错误,从而降低群落分析的准确性,之前基于OTU聚类的方法是设置了一个相对宽松的阈值来解决这一问题,但是这也降低了物种分类学注释的分辨率,因而最多注释到属水平,种水平的注释比例和结果准确性都不够理想。OTU聚类去除了精细尺度的变异,但精细尺度的变异通常具有重要的研究意义,尤其是在临床疾病变异等方面。
近几年来,科学家提出了一种新型的聚类方法,称之为ASV聚类,能够分辨细菌序列单一核苷酸的差异,得到的序列称为代表序列ASVs (amplicon sequence variants),目前这种聚类方式是微生物群落研究中更为推荐的方式。QIIME2整合了这种聚类方法,并且在一代软件基于BLAST相似性比对注释的基础上,整合了多种机器学习和比对方法,提出了全新的物种分类学注释策略,使用VSEARCH、BLAST+和naive Bayes三种序列注释方法,根据大量数据的比较,筛选了最合适的注释参数。最后给出的结果为3个注释方法得到结果中一致的分类学水平及物种名称,使得物种分类学的注释更为准确。
今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。下一期开始我们将为大家带来全面系统的微生物多样性研究结果解读。玩转科研就来凌波微课,我们下期见!